This paper presents a simple and effective visual prompting method for adapting pre-trained models to downstream recognition tasks. Our method includes two key designs. First, rather than directly adding together the prompt and the image, we treat the prompt as an extra and independent learnable component. We show that the strategy of reconciling the prompt and the image matters, and find that warping the prompt around a properly shrinked image empirically works the best. Second, we re-introduce two "old tricks" commonly used in building transferable adversarial examples, i.e., input diversity and gradient normalization, into visual prompting. These techniques improve optimization and enable the prompt to generalize better. We provide extensive experimental results to demonstrate the effectiveness of our method. Using a CLIP model, our prompting method sets a new record of 82.8% average accuracy across 12 popular classification datasets, substantially surpassing the prior art by +5.6%. It is worth noting that this prompting performance already outperforms linear probing by +2.1% and can even match fully fine-tuning in certain datasets. In addition, our prompting method shows competitive performance across different data scales and against distribution shifts. The code is publicly available at https://github.com/UCSC-VLAA/EVP.
translated by 谷歌翻译
多模式情感分析由于其在多模式相互作用中的信息互补性而具有广泛的应用。以前的作品更多地着重于研究有效的联合表示,但他们很少考虑非峰值提取和多模层融合的数据冗余性的不足。在本文中,提出了一个基于视频的跨模式辅助网络(VCAN),该网络由音频特征映射模块和跨模式选择模块组成。第一个模块旨在大大提高音频功能提取的特征多样性,旨在通过提供更全面的声学表示来提高分类精度。为了授权该模型处理冗余视觉功能,第二个模块是在集成视听数据时有效地过滤冗余视觉框架的。此外,引入了由几个图像分类网络组成的分类器组,以预测情感极性和情感类别。关于RAVDESS,CMU-MOSI和CMU-MOSEI基准的广泛实验结果表明,VCAN明显优于提高多模式情感分析的分类准确性的最新方法。
translated by 谷歌翻译
准确的牙齿体积分割是计算机辅助牙齿分析的先决条件。基于深度学习的牙齿分割方法已经达到了令人满意的表现,但需要大量的牙齿数据。公开可用的牙科数据是有限的,这意味着无法在临床实践中复制,评估和应用现有方法。在本文中,我们建立了一个3D Dental CBCT数据集Ctooth+,具有22个完全注释的卷和146个未标记的体积。我们进一步评估了基于完全监督的学习,半监督学习和积极学习的几种最先进的牙齿量细分策略,并定义了绩效原则。这项工作为牙齿体积分割任务提供了新的基准,该实验可以作为未来基于AI的牙科成像研究和临床应用开发的基线。
translated by 谷歌翻译
在本文中,我们引入了一个无监督的组织学图像癌症分割框架。该框架涉及一种有效的对比度学习方案,用于提取独特的视觉表示以进行分割。编码器是一个深的U-NET(DU-NET)结构,与正常的U-NET相比包含一个额外的完全卷积层。开发了一种对比学习方案,以解决缺乏对肿瘤边界高质量注释的训练集的问题。采用了一组特定的数据增强技术来提高对比度学习的学习颜色特征的可区分性。使用卷积条件随机场进行平滑和消除噪声。该实验表明,比某些受欢迎的监督网络更好地表明了分割的竞争性能。
translated by 谷歌翻译
在隐私机器学习中,很常见的是,学识渊博的模型的所有者没有对数据的任何物理访问。取而代之的是,仅授予对模型所有者的安全远程访问,而没有任何能够从数据湖检索数据的能力。但是,模型所有者可能希望从远程存储库定期导出受过训练的模型,并且出现问题是否可能导致数据泄漏。在本文中,我们介绍了神经网络导出期间数据窃取攻击的概念。它包括隐藏出口网络中的一些信息,该信息允许最初存储在该数据湖中的图像数据湖之外的重建。更确切地说,我们表明可以训练可以执行有损耗的图像压缩的网络,同时解决一些实用程序任务,例如图像分割。然后,通过将压缩解码器网络与一些图像代码一起导出,从而导致数据湖外的图像重建。我们探讨了此类攻击对CT和MR图像数据库的可行性,这表明可以获得目标数据集的感知有意义的重建,并且可以随时使用被盗数据集来解决广泛的任务。全面的实验和分析表明,数据窃取攻击应被视为敏感成像数据源的威胁。
translated by 谷歌翻译
图像预训练,当前用于广泛视觉任务的当前事实范式在视频识别领域中通常不太受青睐。相比之下,一种共同的策略是直接从头开始使用时空卷积神经网络(CNN)训练。尽管如此,有趣的是,通过仔细研究这些从划痕学到的CNN,我们注意到存在某些3D内核比其他人具有更强的外观建模能力,可以说表明外观信息在学习中已经很好地散布了。受到这一观察的启发,我们假设有效利用图像预训练的关键在于学习空间和时间特征的分解,并将图像预训练作为初始化3D内核之前的外观。此外,我们提出了空间可分离(STS)卷积,该卷积将特征通道明确将特征通道分为空间和时间基团,以进一步使时空特征更彻底地分解3D CNN。我们的实验表明,简单地用ST替换3D卷积可以显着改善3D CNN的范围,而无需增加参数和计算动力学400和一些v2的计算。此外,这条新的培训管道始终以显着加速的视频识别取得更好的结果。例如,在强大的256- epecoch 128-GPU基线上,我们在Kinetics-400上获得了 +0.6%的慢速1,同时仅以40个GPU进行微调,而对50个时代进行了微调。代码和型号可在https://github.com/ucsc-vlaa/image-pretraining-for-video上找到。
translated by 谷歌翻译
随着多媒体技术的快速发展,增强现实(AR)已成为一个有希望的下一代移动平台。 AR的基本理论是人类的视觉混乱,它使用户可以通过将它们叠加在一起,同时感知现实世界的场景和增强内容(虚拟世界场景)。为了获得优质的经验(QOE),重要的是要了解两种情况之间的相互作用并和谐地显示AR内容。但是,关于这种叠加将如何影响人类视觉关注的研究。因此,在本文中,我们主要分析背景(BG)场景和AR内容之间的相互作用效果,并研究AR中的显着性预测问题。具体而言,我们首先在AR数据集(SARD)中构建显着性,其中包含450 bg图像,450次AR图像以及由叠加BG和AR图像产生的1350个叠加图像,并配对三个混合级别。在60个受试者中进行了大规模的眼睛跟踪实验,以收集眼动数据。为了更好地预测AR的显着性,我们提出了一种量化显着性预测方法,并将其推广为AR显着性预测。为了进行比较,提出并评估了三种基准方法,并与我们在沙德上提出的方法一起进行了评估。实验结果证明了我们提出的方法在常见的显着性预测问题和AR显着性预测问题上的优越性比基准方法的优势。我们的数据集和代码可在以下网址获得:https://github.com/duanhuiyu/arsality。
translated by 谷歌翻译
Skull stripping is a crucial prerequisite step in the analysis of brain magnetic resonance images (MRI). Although many excellent works or tools have been proposed, they suffer from low generalization capability. For instance, the model trained on a dataset with specific imaging parameters cannot be well applied to other datasets with different imaging parameters. Especially, for the lifespan datasets, the model trained on an adult dataset is not applicable to an infant dataset due to the large domain difference. To address this issue, numerous methods have been proposed, where domain adaptation based on feature alignment is the most common. Unfortunately, this method has some inherent shortcomings, which need to be retrained for each new domain and requires concurrent access to the input images of both domains. In this paper, we design a plug-and-play shape refinement (PSR) framework for multi-site and lifespan skull stripping. To deal with the domain shift between multi-site lifespan datasets, we take advantage of the brain shape prior, which is invariant to imaging parameters and ages. Experiments demonstrate that our framework can outperform the state-of-the-art methods on multi-site lifespan datasets.
translated by 谷歌翻译
由于单个RGB图像的不利低对比度和弱可见性问题,低光图像增强(LLE)仍然具有挑战性。在本文中,我们回应了有趣的学习相关问题 - 如果利用可访问的既可接近的过分配对/曝光过度的图像和高级别的语义指导,可以提高尖端LLE模型的性能?在这里,我们提出了一种有效的语义对比的学习范例(即SCL-LLE)。除了现有的LLE智慧之外,它将图像增强任务施放为多任务联合学习,其中LLE被转换为对比学习,语义亮度一致性的三个约束,同时确保曝光,纹理和颜色一致性。 SCL-LLE允许LLE模型从未配对的阳性(常灯)/否定(过度/曝光),并使其与场景语义进行互动以正规化图像增强网络,但高级语义知识的相互作用并且在以前的方法中很少地研究了低级信号。培训易于获得的开放数据,广泛的实验表明,我们的方法超越了六个独立的交叉场景数据集的最先进的LLE模型。此外,讨论了SCL-LLE在极暗条件下有益于下游语义分割的潜力。源代码:https://github.com/linglix/sclle。
translated by 谷歌翻译
最近,自我关注操作员将卓越的性能作为视觉模型的独立构建块。然而,现有的自我关注模型通常是手动设计的,从CNN修改,并仅通过堆叠一个操作员而获得。很少探索相结合不同的自我关注操作员和卷积的更广泛的建筑空间。在本文中,我们探讨了具有权重共享神经结构搜索(NAS)算法的新颖建筑空间。结果架构被命名为Triomet,用于组合卷积,局部自我关注和全球(轴向)自我关注操作员。为了有效地搜索在这个巨大的建筑空间中,我们提出了分层采样,以便更好地培训超空网。此外,我们提出了一种新的重量分享策略,多头分享,专门针对多头自我关注运营商。我们搜索的Tri of将自我关注和卷积相结合优于所有独立的模型,在想象网分类上具有较少的拖鞋,自我关注比卷积更好。此外,在各种小型数据集上,我们观察对自我关注模型的劣等性能,但我们的小脚仍然能够匹配这种情况下的最佳操作员,卷积。我们的代码可在https://github.com/phj128/trionet提供。
translated by 谷歌翻译